深度学习，提高前列腺癌诊断正确率

From Google 谷歌开发者 2019-02-14

文 / Google AI 医疗保健技术负责人 Martin Stumpe 和产品经理 Craig Mermel

在美国，大约有九分之一的男性一生中会患上前列腺癌，这使其成为男性中最常见的癌症。前列腺癌虽然常见，但往往不具侵蚀性，因此医生很难确定癌症是否对患者构成足够大的风险，以致于需要进行治疗，例如通过手术切除前列腺（前列腺切除术）或放疗。Gleason 分级是帮助我们对前列腺癌患者进行 “风险分级” 的重要方法，其使用显微镜观察载玻片，并根据样本与正常前列腺之间的相似程度对癌细胞进行分级。

然而，虽然前列腺癌 Gleason 分级的临床意义已得到广泛认可，但过程非常复杂，并且具有主观性。研究表明，病理学家对分级结果存在分歧的概率是 30% 到 53% [1][2]。此外，接受过专业培训的病理学家还远远不足，无法满足全球的前列腺癌病理诊断需求，在美国以外的国家和地区尤其如此。最近提出的指导原则也建议病理学家在最终诊断报告中写明不同 Gleason 分级下的肿瘤预后良好概率，这不仅加大了病理学家的工作量，还为其带来另一个主观性挑战 [3]。总体来看，这些问题表明，我们可以利用基于深度学习的模型来改进前列腺癌的诊断和临床管理。这类似于 Google 及其他机构利用此类技术证明提高转移性乳腺癌检测准确率的方法。

在《用于改进前列腺癌 Gleason 评分的深度学习算法的开发与验证》(Development and Validation of a Deep Learning Algorithm for Improving Gleason Scoring of Prostate Cancer) 一文中，我们探讨了深度学习能否提升对前列腺切除术样本进行前列腺癌 Gleason 分级的准确度和客观性。我们开发了一个深度学习系统 (DLS)，首先将载玻片中的每个区域对应至 Gleason 模式，与正常前列腺相似程度越高的肿瘤，对应的模式就越低，以此反映病理学家的工作流程。然后，DLS 根据所呈现的两种最常见 Gleason 模式总结整体 Gleason 分级组别。分级组别越高，癌症进一步恶化的风险就越大，而患者从治疗中获益的可能性也越大。

Gleason 模式的直观示例，该模式用于对前列腺癌进行分级的 Gleason 系统。系统根据癌细胞与正常前列腺组织的相似程度，为单个癌细胞图块分配 Gleason 模式。模式编号越小，对应的肿瘤分化程度就越好。图像来源：美国国立卫生研究院

为了开发和验证 DLS，我们收集了已去除个人信息的前列腺切除术样本图像，其中包含的前列腺癌细胞数量和种类比通过针刺活检获得的要多，虽然后者是更常用的临床过程。在训练数据方面，有 32 位病理学家针对 Gleason 模式提供了详细注释（最终得到超过 1.12 亿个经过注释的图块）和每张图像的整体 Gleason 分级组别。为了克服前文提及的 Gleason 分级可变性问题，验证数据集中的每个载玻片都分别由 3 至 5 位一般病理学家（从 29 位病理学家中选出）独立分级，并由一位泌尿生殖专业病理学家作出最终的 Gleason 分级，从而获得该载玻片的真实标记。

在论文中，我们展示了 DLS 的整体准确率达到 70%，而在我们的研究中通过美国执业资格认证的普通病理学家的平均准确率为 61%。我们选出 10 位在为验证数据集中每个载玻片分级中表现出色的一般病理学家，而 DLS 的准确率超过了其中 8 位。在 Gleason 模式定量分析中，DLS 的准确率也高于一般病理学家。我们可以将这些对 Gleason 分级的改进解读为更好的临床风险分级：在识别术后疾病复发风险更高的患者方面，DLS 的表现优于水平一般的病理学家，这可能会使医生能够根据这些信息选择更适合患者的疗法。

DLS 与病理学家的评分表现比较。a：DLS 的准确率（以红色表示）与 29 位病理学家平均准确率（以绿色表示）的比较。误差线表示 95% 的置信区间。b：DLS、29 位病理学家，以及泌尿生殖专业病理学家提供的风险分级比较。我们根据患者的 Gleason 分级组别，将他们分为高风险和低风险组。这些风险组生存曲线（Kaplan-Meier 曲线）之间的较大分离区域表示更准确的分级

我们还发现 DLS 能够描绘组织形态特征，这些特征似乎位于两种 Gleason 模式的相交位置，这是病理学家进行 Gleason 分级时出现分歧的一个原因，也表明我们或许可以更加细分前列腺癌的 “精确分级”。虽然这些中间模式（例如 Gleason 模式 3.3 或 3.7）的临床意义尚不明确，但 DLS 提升的精确度将会推动对这一有趣问题的进一步研究。

评估 DLS 的区域级别分类。a：3 位病理学家的注释与 DLS 预测的比较。病理学家对肿瘤区域位置和范围的判断展现出普遍一致性，但在对 Gleason 模式进行分类方面有较大分歧。系统通过在 Gleason 模式 3（绿色）、4（黄色）和 5（红色）的 DLS 预测模式间进行插值，来展示每个区域的 DLS 精确 Gleason 模式。b：DLS 预测
模式与病理学家对测试数据集中 4100 万已注释图块作出的 Gleason 模式分类之分布情况的比较。病理学家存在分歧的图块中的组织更有可能位于两种模式的相交位置，DLS 在其预测分数中反映出这种不明确性

虽然这些初步成果很振奋人心，但在将类似 DLS 的系统应用于改进对前列腺癌患者的治疗之前，我们还有很多工作要做。首先，我们可以利用更多训练数据进一步提高模型的准确度，并基于包含更多和更多样患者的独立群体进行验证。此外，我们正在积极完善 DLS 系统，以将其用于诊断性针刺活检，此类活检会在患者决定接受手术前进行，也是 Gleason 分级在临床决策方面具有更重大影响的原因。我们还需要进行更深入的研究来评估如何以最佳方式将 DLS 整合到病理学家的诊断工作流程中，以及评估这种基于人工智能的辅助方法在临床实践中对 Gleason 分级整体效率、准确率和预后判断能力的影响。尽管如此，我们仍然为这类技术显著改进癌症诊断和患者治疗的潜力感到振奋。

致谢

此项研究是多学科团队的努力成果，其中包括软件工程师、研究人员、临床医生和后勤支持人员。此项目的主要贡献者包括 Kunal Nagpal、Davis Foote、Yun Liu、Po-Hsuan (Cameron) Chen、Ellery Wulczyn、Fraser Tan、Niels Olson、Jenny L. Smith、Arash Mohtashamian、James H. Wren、Greg S. Corrado、Robert MacDonald、Lily H. Peng、Mahul B. Amin、Andrew J. Evans、Ankur R. Sangoi、Craig H. Mermel、Jason D. Hipp 和 Martin C. Stumpe。我们还要感谢 Tim Hesterberg、Michael Howell、David Miller、Alvin Rajkomar、Benny Ayalew、Robert Nagle、Melissa Moran、Krishna Gadepalli、Aleksey Boyko 和 Christopher Gammage。最后，如果没有为此项研究注释数据的病理学家的帮助，这个项目也不会成功。

参考文献

中枢和局部病理学家在根治性前列腺切除术组织学评估中的观察者间差异：TAX 3501 多国临床试验发现 (Interobserver Variability in Histologic Evaluation of Radical Prostatectomy Between Central and Local Pathologists: Findings of TAX 3501 Multinational Clinical Tria). Netto, G. J.，Eisenberger, M.，Epstein, J. I. 和 TAX 3501 试验研究者.《泌尿学》(Urology) 77，1155–1160 (2011)
pT3 期前列腺癌辅助性放疗与等待观望的第 3 阶段对比研究：病理回顾对分析的影响 (Phase 3 Study of Adjuvant Radiotherapy Versus Wait and See in pT3 Prostate Cancer: Impact of Pathology Review on Analysis). Bottke, D.，Golz, R.，Störkel, S.， Hinke, A.，Siegmann, A.，Hertle, L.，Miller, K.，Hinkelbein, W.，Wiegel, T.《欧洲泌尿外科杂志》(Eur.Urol) 64，193–198 (2013)
前列腺活检和前列腺切除术样本中定量 Gleason 分级的应用 (Utility of Quantitative Gleason Grading in Prostate Biopsies and Prostatectomy Specimens). Sauter, G.，Steurer, S.，Clauditz, T. S.，Krech, T.，Wittmer, C.，Lutz, F.，Lennartz, M.，Janssen, T.，Hakimi, N.，Simon, R.，von Petersdorff-Campen, M.，Jacobsen, F.，von Loga, K.，Wilczak, W.，Minner, S.，Tsourlakis, M. C.，Chirico, V.，Haese, A.，Heinzer, H.，Beyer, B.，Graefen, M.，Michl, U.，Salomon, G.，Steuber, T.，Budäus, L. H.，Hekeler, E.，Malsy-Mink, J.，Kutzera, S.，Fraune, C.，Göbel, C.，Huland, H.，Schlomm, T.《欧洲泌尿外科杂志》(Eur.Urol) 69，592–598 (2016)

更多 AI 相关阅读：

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案